、 - 放 ま “ 


ーーー 


ーー 大 FPGA と CPU コア を 活用 し て 効率 化 


大 規模 LSI の 開発 で は , は じ め か ら す べ て を RTL(register 
transfer level) で 設計 する こと は 容易 で は な い . 抽 暴 度 の 高 
い レ ベル か ら ト ッ プ ダウ ン に 設計 を 進め る の が 一 般 的 で ある . 
ここ で は , 設計 を いく つか の 階層 に 分 け て 考え , トッ プ ダ ウン 
で シス テム LSI を 設計 する 手法 を 解説 する . また , 抽 昌 度 の 高 
い 段 階 や , 複数 の 抽象 度 が 混在 する 設計 レベ ル で 検証 を 行う た 
め に , FPGA と CPU コア を 活用 する 手法 に つい て 説明 する . 
(編集 部 ) 


E, 半導体 技術 の 進歩 と と も に , より 多く の 機能 が 1 
園 の LSI へ 集積 で きる よう に な っ て きま し た . さま ざま な 
回 路 プ ロッ ク と マイ クロ プロ セッ サ を 混載 し た シス テム LSI 
( SOC: system on a chip と 呼ば れる こと も ある ) が 注目 
され て いま す . 
LSI の 規模 が 大 きく な り , いろ いろ な 機能 が 集積 され る 
に 従っ て , その 設計 と 検証 に は 多く の 時 間 と 労力 が 必要 に 
な り ま す . そこ で , 大 規模 LSI の 設計 で は , 最初 か らい き 
な り RTI( register transfer level) コード を 記述 する の で 
は な く , 高位 の C++ モデ ル な ど を 作る こと で , トッ プ ダ 
ウン の 設計 手順 を 踏む こと が 多く な っ て いま ずり . また , 
検証 作業 も RTL コ ー ド の み を 使う の で は な く , より 高位 
の モデ ル を 使っ て 高速 に 行う こと が 多く な り ま し た . し か 
し , 依然 と し て LSI の 開発 期間 の 7 割 が 検証 に 割か れ て い 
る と いう 報告 も あび 2, 多く の 時 間 と 労力 が 必要 で す . 
検証 作業 を 効率 化 ・ 高 速 化す る 一 つの 方 法 と し て , 
FPGA な ど を 用 いた ハー ド ウェ ア ・ プ ロト タイ ピン グ が あ 
り ま す . LSI を 製造 する 前 に , 設計 を FPGA 上 に 実装 し て 
検証 する 方 法 で , 今 で は 広く 用 いら れ て いま ず 9. 
FPGA の 進歩 も 著しく , 大 規模 化 , 高速 化 だ け で な く , 
いろ いろ な ハー ド IR intellectual property) を 搭載 し た シ 


人 
hy 


ーー ト 
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大 許 信 芝 


リー ズ も 登場 し て き て いま す . 

話 が 少々 それ ます が , 時 代 ご と に LSI 技 術 の 進歩 を けん 
引 し た 電子 部 品 を テク ノロ ジ ・ ド ライ バ 」 と 呼ぶ こと が あ 
り ま す . 1980 年 代 は DRAM, 1990 年 代 は マイ クロ プロ セ 
ッ サ , そし て 2000 年 か ら 現在 に 至る まで は FPGA が その 
テク ノロ ジ ・ ド ライ バ で ある と 言わ れ て いま す . 大 容量 か 
つ 高 速 な FPGA が 入手 で きる よう に な り , 通信 機器 , ネッ 
トワ ー ク 機器 , ディ ジタル 家電 な ど , いろ いろ な 分 野 で 活 
用 され て いま す . 

FPGA ベン ダ の 米国 Xiinx 社 か ら は , PowerPC の ハー 
ド ・ マ クロ を 搭載 する FPGA Virtex-II Pro」,「 Virtex-4] 
シリ ー ズ が 発売 され て いま す . 32 ビ ッ ト RISC プ ロ セ ッ サ 
PowerPC 405 コ ア が 1 個 な いし 2 個 搭載 され , 最大 450 
MHz で 動作 し , 700Drystone MIPS を 超え る 性 能 を 発揮 し 
ま 。 

本 稿 で は , トッ プ ダ ウン 型 の LSI 設計 に つい て , 実例 を 
交え な が ら 述べ ます . 例え ば , FPGA に 内 蔵 さ れ た マイ ク 
ロ プ ロ セ ッ サ を 用 いて , 複数 の 設計 抽象 度 で 記述 され た LSI 
を 検証 する 方 法 を 紹介 し ます . 


LSI の 大 規模 化 , 高 機能 化 に 伴い , 5 効率 良く 設計 ・ 
検証 する 方 法 が 求め られ て いま す . そこ で , 近年 , シス テ 
ム ・ レ ベル か ら ネッ トリ スト ・ レ ベル まで 一 貫 性 の ある ト 
ッ プ ダウ ン 設 計 手 法 が 用 いら れる よう に な っ て きま し た . 


⑯ トッ プ ダ ウン 設計 と は 
最初 に LSI の 仕様 を 仕様 レベ ル で 記述 し ます . 端的 に 言 
えば , LSI が 何 を する の か を 明確 に し ます . 続い て , 設計 


ーー 


ご コ 


ソル 


表 2 ポイ ント 
上 S1 設計 の ボイン | 。 と ハード | 一 つの 処理 を 実行 する た め ,。 1) すべ て を ハー ドウ ェ ア で 行う , 2) 汎用 CPU も し く は DSP 上 で 走る ソフ ト 
ト の 例 1 半 0 ウェ ア で 行う , 3) ある い は ハー ドウ ェ ア と ソフ トウ ェ ア 両 方 で 協調 し な が ら 行 う , と いう 3 通り の 場合 が 考え 


られ る . 
ハー ドウ ェ ア 化 の 効果 一 般 的 に , ハー ド ウェ ア 化 する こと で 処理 速度 は 上 が り , また 消費 電力 は 下がる ( そう な ら な いと ハー ドウ 
ソフ ト ウェア で 実現 す ェ ア 化 する 意味 が な い ). し か し , ハー ドウ ェ ア で ぎ ち ぎ ち に 組ん で し まう と , アル ゴリ ズム や デー タ 構 造 を 
る メリ ッ ト 少し 変え よう と 思っ て も 対応 し に くく な る . 一 方 , ソフ ト ウェ ア で 実現 すれ ば , あと か ら ア ル ゴ リ ズム や デー 
構造 の 変更 要求 に 柔軟 に 対応 で きる . 
シン グル ポー ト か マル チ ポ ー ト か . 同時 に 二 つ 以 上 の アク セス が 発生 する 場合, マル チ ポ ー ト の レジ スタ や メ 
モリ を 用 意 す る の が 簡単 . し か し , デュ アル ポー ト ・ メ モリ は , シン グル ポー ト ・ メ モリ に 比べ て , ハー ドウ 
ェ ア 量 が 50% 100% 増 し に な る こと が ある . また , デュ アル ポー ト ・ メ モリ で あっ て も , 同時 に 同じ アド レ 
ス に ライ ト と リー ド が 発生 し た 場合 , どの デー タ が リー ド さ れる か は メモ リ に よる の で , 注意 が 必要 . 資源 節 
約 の た め , 一 つの レジ スタ や メモ リ を 複数 の 用 途 で 使い まわ すこ と も ある 
タイ ミン 動作 遅延 ) 言う まで も な いと と だ が , 所 定 の 速 春 周波 数 ) で 回 路 が 動作 し な けれ ば な ら な い . 例え ば 加算 器 で も , 
の 見 積もり ハー ドウ ェ ア 量 が 少な い が 遅 い リ プル ・ キ ャ リ 型 を 用 いる の か , ハー ドウ ェ ア 量 が 多い が 速い キャ リ ・ ル ッ ク 
アヘ ッ ド 型 を 用 いる の か , と いう よう に , 同じ 処理 で も 異な っ た 回 路 構 成 に で き な い か を 考え る . 
通常 の 同期 シス テム で は , グロ ー バ ル ・ ク ロッ ク に 同期 し た 入力 ラッ チ と 出力 ラッ チ に は さま れ た 組み 合わ せ 
回 路 は , 1 クロ ッ ク ・ サ イク ル 中 に 演算 を 終了 し て いる 必要 が ある . し か し , も の に よっ て は 2 クロ ッ ク ・ サ 
イク ル か か っ て よい ケー ス も ある . あえ て メイ ン ・ ク ロッ ク の 半分 の 周波 数 を も つ ク ロッ ク を 別に 用 意 し , 回 
路 の 最適 化 を 図る こと も ある . 
レイ テン シ は 入力 を 与え て か ら 出力 結果 が 得 ら れる まで の 時 間 の こと で あり , スル ー プ ッ ト は 単位 時 間 当たり 
に 得 ら れる 結果 量 で ある . パイ プラ イン を 深く する こと で スル ー プ ッ ト を 上 げ る と いう 手段 は よく 用 いら れる 
が , そう する と レイ テン シ が 長く なる. 概して レイ テン シ が 長い 回 路 は 設計 が むず か し く な る . と くに , デー 
タ に よっ て レイ テン シ が 変わ っ て くる よう な 回 路 は , 動作 を きち ん と 把握 し な いと 設計 が 破たん し て し まう . 


レジ スタ , メモ リ 


マル チ サ イ クル 動作 


を より 詳細 な レベ ル , すなわち トラ ン ザ クシ ョ ン ・ レ ベ バル, 表 1 設計 抽象 度 
サイ クル 精度 レ ベル へ ブレ ー ク ダウ ン し な が ら . 論理 回 路 NN より 最終 回 路 に 近く な っ て いく . 動作 タイ ミン グ も 正確 に 
を 合成 可能 な RTL ま で 変換 し て いき まず 表 1). も ちろ ん , ie 
か な ら ず し も この ステ ッ プ を 1 段 1 段 た どる と は か ぎり ま 仕様 レベ ル コン セプト untimed | ソフトウェア 
せん 。 例え ば, 簡単 な ペー ド ウェ ア ・ モ ジュ ー ル で あれ ば , 5) や 2 
仕様 レベ ル か ら 直 接 RTL 設 計 へ 進む お こと も あり ます 
求め られ て いる 処理 機能 を ハー ド ウェ ア 化 する た め に 
は , アル ゴリ ズム を 正確 に ハー ド ウェ ア で 実現 する だ け で 
な く , いろ いろ な 条件 や 制約 を クリ ア し な けれ ば な り ま せ 
ん . その た め に は , 表 2 の よう な 観点 か ちら ハー ドウ ェ ア を 
煮詰め る 必要 が あり ます . 
トッ プ ダウ ン 設 計 を 行う こと に より , この よう な 条件 , 制 


検証 レベ ル 2 イミ シグ / 実 装 


ソフ ト ウェア 


8 マイ クロ 。 
サイ クル 精度 レベ ル アー キテ クチ ャ timed 


ソフ ト ウェア 


RTU レジ スタ ・ 
トラ ンス ファ ・ レ ベル ) 


実 装 timed ハー ド ウェア 


standard) 暗号 エン ジン と 接続 され て いま す . また , PLB 
は PLB-OPB ブ リッ ジ を 介し て 1I/O バ ス ( OPB : On-chip 
Peripheral Bus) と つなが り ま す . OPB 上 に は RS Rivest, 


約 を 的 確 に 設計 へ 取り 込み や すく な り ま す . そし て , 複雑 
な 大 規模 LSI で も 見 通し 良く ,, バグ も 少な く , 開発 する こ 
と が で きま す . また , より 高位 の レベ ル で 記述 され た モデ 
ル を 使う こと に より , すべ て の モデ ル を RTL で 記述 し た 場 
合 と 比べ て , 高速 に シミ ュ レ ーション する こと が で きま す . 

トッ プ ダ ウン 設計 ・ 検 証 は , 具体 的 に どの よう に 進ん で 
いく の で し ょ うか . 

図 1 は シス テム LSI の 一 例 で す . この シス テム LSI に は 
PowerPC 405 が CPU コア と し て 搭載 され , シス テム ・ バ 
ズ PLB : Processor Local Bus) を 通し て , メモ リ ・ イ ン 
ター フェ ー ス , MPEG エ ンコ ー ダ , MPEG デ コー ダ , DES 

( data encryption standard) /AES advanced encryption 


Shamir and Adleman) /ECC eliiptic-curve cryptogra- 
phy) 暗号 エン ジン , 乱数 発生 回 路 , 汎用 I/O イ ンタ ー フ ェ 
ー ス が 接続 され て いま す . で は , どの よう に 設計 し て いく 
の か , レベ ル ご と に 見 て いき まし ょ う . 


念 仕様 レベ ル (specification level) 
仕様 レベ ル で は , LSI の コン セプト お よび 何 を 行う も の 
で ある の か を 記述 し ます . 

「 本 LSI は 暗号 機能 を 搭載 し た 画像 処理 プロ セッ サ で す . 
画像 処理 は MPEG4 規 格 を ベー ス に 行い ます . 画像 デー タ 
の 暗号 化 / 復 号 化 を 含ん だ セキ ュ ア な 伝送 は SSI( secure 
socket layer) プロ ト コル を 使い ます 」. 
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シス テム LSI 軸 

PowerPC 405 DES/AES エ ンジ ン | 、。。、 

IGG po RswEccr シ シッ 
ブリ ッ ジ 凶 


乱数 発生 器 図 
(RNG) 


図 1 
暗号 回 路 を 搭載 し た 画像 処理 LSI MPEG 較 
の 設計 例 イン ター フェ ー ス 図 | エン コー ダ 晶 


PowerPC 405 を CPU コア と し て 用 
い , MPEG エン コー ダ , MPEG デコ 
ー ダ , DES AES 共通 か ぎ 暗号 エン ジ 
ン , RSA 寿 CC 公開 か ぎ 暗 号 エ ンジ 
ン , 乱数 発生 器 を 搭載 する . 


OPB: On-chip Peripheral Bus 凶 
PLB : Processor Local Bus 


外部 メモ リ 較 
(DDR SDRAM) 


仕様 レベ ル 図 


C/C++/SystemC 


| C/C++/SystemC 


サイ クル 精度 図 
レベ ル 凶 


| C/C++/SystemC 凶 


ジ 
1 クロ ッ ク 著 レジ スタ 図 FSM| カウ ンタ 図 | レジ スタ 層 
設計 の ブレ ー ク ダウ ン の 例 | mw コ し レジ スタ 図 FsM| カウ ンタ 


キャ ッシュ 史 
RSA/ECC と エン ジン が レジ スタ , ステ 3 al 王 多層 セレ クタ 凶 
ー ト ・ マ シン , カウ ンタ へ 実装 され VHDL/Verilog HDL 


て いる 過程 が わか る . | 加算 器 乗算 器 


メモ リ 図 


この よう な ぐあい に , LSI の 機能 を C++ で 記述 し ます . いう 希望 も あり ます . この レベ ル で 一 連 の 処理 手順 を C++ 
今回 は 要求 され た 画像 処理 , 暗号 処理 の スル ー プ ッ ト 性 能 で 記述 し て お く と , 後々 の 検証 時 に 見 通し の 良い デバ ッ グ 
が PowerPC 405 を 使っ た ファ ー ム ウェ ア だ け で は 達成 で が 行え ます . 例え ば , 画像 デー タ 暗号 化 の た め の 秘 密か ぎ 
き な い レベ ル で あっ た た め , 図 1 に 示す よう に 専用 の ハー 生成 処理 で は , 
ドウ ェ ア ・ モ ジュ ー ル を 設計 し , 統合 し まし た . 1) 乱数 発生 器 で 乱数 を 発生 させ る . 

また , 暗号 に 関連 する 演算 は セキ ュ リ ティ 上 の 配慮 か ら , 2) DES エ ンジ ン で 発生 し た 乱数 を スム ー ジ ング し , 秘密 
な る べく ハード ウェ ア ・ モ ジュ ー ル 内 で 閉じ て 行い た いと か ぎ を 生成 する . 
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スク ニラ ウル 計 


リス ト 1 仕様 レベ ル と トラ ン ザ クシ ョ ン ・ レ ベル の C++ コ ー デ ィング 例 


仕様 レベ ル で は 普通 の C++ プロ グラ ム と ほとん ど 同 じ . トラ ン ザ クシ ョ ン ・ レ ベル で は カウ ンタ の リセ ッ ト , 増減 な どの ハー ド ウェ ア を 意識 し た コー ド に な っ て 


いる . 


class mod exp hm 

{ 
pub11o: 

//Eor event-qdrtive/c1ook-dr1iven mode11ng 
1n 1ggue ( ) : 


Dr1Ya ヒ Ge : nt 1, ]: 


in mod exxp hm::1ssue () 


{ 
for (1 = oore bitwidth-1, 1 > 0: ミー-) 人 { 


For (=b1tw1dth-1: >0: ]--) 人 { 


(8) 仕様 レベ ル 


clagg coutner clasg { 
pub11C: 
Yo1d ggue (Vo1d) : 
boo] igzero() 
Yo1d deo() : 
Yo1d ge (in ca1ue) : 
coutner C]ass () 』 
Y1rtua1 -ooutner Class () : 
Dr1Yae : 
in couner: 
nt in deo: 
nt in se: 
}: 
Yo1d coutner olasg : : get (in Ya1ue ) { 
in ge = Ya]ue: // dec() Elag 
} 
Yo1d coutner class : :dec ( ) { 
in dec = 1: // dec() Elag 
} 
jpoo1 coutner clasg : : 18Ze エ Oo ( ) { 
if (counter == 0) { 
エ eUu エ mn 上 子 UG 』 
) e1se { 
return fa]ge: 
) 
} 
Yo1d coutner olasg::18gue ( ) { 
iE(in set > 0) { 
counter = in se 
) e1se ifE(in gec > 0) { 
counter = CounEer - 1: 
) 
in se 
in deo 


| 


-1: // reset set() El1ag 
-1: // reset dec() El1ag 


cl1asg mod exp hm 


{ 
pub11o: 

/ / for event-qdrive/c1ook-qdr1iven mode1]ing 
int iggue () : 


p エ 1 ユマ a6 : 
counter ol1asg 1, ]: 


// use counter ol1agg 


Tn mod exxp hm::1sgue () 


( 


1.set (core bitwidth.minus one() ) : 
1.1ggue() : 
do { 


]. set (core bitwidth . out () ) : 
].1ggue () : 
do { 
].dec() : 
].1ggue () : 
) whi1e(] .1szero ( ) ==Fa1 se) : 
1 .dec() : 
1.1ggue() : 
) whi1e (1 .1szero==Fa1 ge) : 


(b) ト ラン ザク ショ ン ・ レ ベル 


3) RSA エン ジン を 使い , 秘密 か ぎ を 公開 か ぎ で 暗号 化す る . 


と いう 手順 を 踏み ます . また , 一 連 の 処 弄 


E で どこ が 律速 段 


階 な の か , どの 部 分 を ハー ドウ ェ ア 化 し , そし て 
する こと で 高速 化 で きる の か を 把握 で きま す . 


比 列 処理 


ここ か ら 図 2 に 示す よう に, 合成 可能 な RTL へ ブレ ー ク 
ダウ ン し て いき ます . 最初 に RSA, ECC 演 算 は 普通 の 
C++ プ ログ ラム と し て 記述 し , テス ト ・ データ を 与え て 正 
し く 動作 する か どう か を 検証 し ます . これ を いき な り RTL 
へ 落と すこ と は 難し い の で , まず トラ ン ザ クシ ョ ン ・ レ ベ 


ル へ 変換 し ます . 


人 トラ ン ザ クシ ョ ン ・ レ ベル (transaction level) 
LSI の 内 部 構成 を 具体 化し ます . 
トラ ン ザ クシ ョ ン ・ レ ベル で は , バス 上 で どの よう な デ 
ー タ 転送 が 発生 する か を 正確 に 記述 し , 把握 し な が ら , 全 
体 構 成 を 決定 し ます . 正しく 動く こと を 確か め る こと は も 
ちろ ん 重要 で す が , バス の バン ド 幅 に 不足 が な いか どう か 
の 性 能 評 価 見 積もり も 行い ます . 
画像 処理 や DES/AES の 秘密 か ぎ 暗 号 処 理 は , デー タ 転 
送り の バンド 幅 が 高い た め , PLB 接 続 と し まし た . 一 方 , 
RSA/ECC 暗 号 処理 は , 一 つの デー タ ・ サ イズ は 大 きい の 
で す が RSA で 1024 な いし 2048 ビ ッ ト ), セキ ュ ア ・ セ ッ 
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ショ ン を 最初 に 構築 する と き に し か 用 いら れ ま せん . また , 
1 回 の 演算 に 100 万 サイ クル 以上 の 長い 時 間 が か か る ので, 
デー タ 転送 の バン ド 幅 は 低い も の で す . し た が っ て , OPB 
へ 接続 する こと と し ます . 乱数 発生 器 も 頻繁 に 使う も の で 
は な い の で , OPB 接続 と し ます . 同じ く , 汎用 1/O イ ンタ 
ー フ ェ ー ス も 動作 速度 が 遅い の で , OPB へ 接続 し ます . 
リス ト 1 に , 仕様 レベ ル と トラ ン ザ クシ ョ ン ・ レ ベル の 
C++ で 記述 し た 設計 例 を 示し ます . クラ ス 中 の プラ イベ ー 
変数 が ハー ド ウェ ア 実 体 の ある 変数 に 変換 され て いま す . 
人 For ルー プ が カウ ンタ ・ ク ラス に 変換 され て いま す . 
デー タ 入出 力 操作 は メソ ッ ド 呼び 出し で 実現 され て いま す . 
プラ イベ ー ト 変数 は , 最終 的 に RTL で すべ て レジ スタ 記 
に 変換 され る こと に な り ま す . 


@ サイ クル 精度 レベ ル (cycle accurate level) 

トラ ン ザ クシ ョ ン ・ レ ベル で は イベ ント ・ ド リブ ン で 動 
作 し て いま し た . 例え ば , バス 上 に リー ド ・ リ クエ スト と 
いう イベ ント を 発生 し , その アク ノリ ッ ジ と いう イベ ント 
を 待つ と いう ハン ド シェ イク で す . それ に 対し て サイ クル 
精度 レベ ル で は , すべ て の 機能 モジ ュー ル や 論理 は , LSI 
の 内 部 クロ ッ ク に 同期 し て 動作 が 進ん で いき ます . 各 機 能 
共 ダ ュー ル 肌 の ルツ スタ 。 デ ヨー ダ カウ ンタ 。 ス テー 
ト ・ マ シン も クロ ッ ク ・ サ イク ル ご と に どう いう 動作 を 行 
うか が 正確 に 記述 され ます . 

今 まで C++ 中 に 書か れ て いた 条件 分 岐 , すなわち if 文 
は ハー ド ウェ ア へ 直接 実装 可能 な 記述 に 変換 し ます . メモ 
リ も 実際 の LSI 中 で 使え る 構成 ビッ ト 幅 , ライ ン 数 , ポ 
ー ト 数 な ど ) を 考慮 し て メモ リ , ある い は キャ ッシュ ・ メ 
モリ へ 変換 し て 実装 し ます . 

一 般 に , 性 能 と ゲー ト 数 , 動作 周波 数 , 消費 電力 は 比例 


デー 


性 

肥 

SL 「) 

電 ーーーーーーーー 仕様 要求 レベ ル 5 
力 @ 

較 @ 


ゲー ト 数 , 動作 周波 数 図 
図 3 性 能 と ゲー ト 数 , 消費 電力 の トレ ー ド オフ 
与え られ た 仕様 を 満足 する 最適 な ポイ ント を 見 つけ る 必要 が ある . 
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関係 に あり ます . 与え られ た 仕様 を 満た し , か つ ゲ ー ト 数 
や 消費 電力 が 最適 な ポイ ント を 見 つけ る の も 大 事 な 作業 で 
図 3). 


信 RTL 
RTL は , その まま LSI や FPGA 向け に 合成 ・ 実装 で きる 
レベ ル で す . 


FPGA と で PU コア を 用 ただ 琶 証 = 和 証 
ヒーーーーーーーーーーーーーーー ==ーーーーーーーーーーーー ーー | 

近年 の LSI 開発 で も っ と も タフ な フェ ー ズ は 検証 で す . 
本 LSI の 場合 で あれ ば , 以下 に 述べ る 理由 か ら , ソフ トウ 
エア ・ シ ミュ レー ショ ン だ け で た くさ ん の テス ト ・ ケ ー ス 
を 流す こと は か な り 難し いこ と が わか り ま す . 

公開 か ぎ 暗 太 RSA, ECC) の 演算 に は 膨大 な サイ クル 
数 を 必要 と し ます . 例え ば , 2048 ビ ッ ト RSA の 演算 で は 
1 億 クロ ッ ク ・ サ イク ル 以 上 が 必要 で す . これ を ソフ トウ 
エア ィ ジミ ュ レ ーション で 流す と , 一 つの デー タ を 計算 す 
る だ け で も 数 日 か か っ て し まい ます . シミ ュ レ ーション 中 

に 問題 が 起き た 場合 , バグ の 原因 を トレ ー ス する た め に キ 
ー と な る 信号 の 中 間 状 態 を すべ て 記録 し て お く 必要 が あり 
ます . 信号 状態 を 長 時 間 ハ ー ド ・ デ ィ ス ク に 記録 する た め 
大 き な 容 量 の ハー ド ・ デ ィ ス ク を 用 意 す る か , また は 記録 
する 信号 線 の 本 数 を 減ら さ な け れ ば な り ま せん . あと か ら , 
「 あの 信号 も 見 て お け ば よかっ た 」 と いう こと が あり ます . 
また , シミ ュ レ ー タ の ライ セン ス 有 形態 に よっ て は , 一 つの 
シミ ュ レ ーション を 流し て いる 間 , ライ セン ス を 占有 する 
た め , ほか の シミ ュ レ ーション を 並行 し て 流せ な いと いう 


こと も あり ます . 
AES, RSA, ECC( RI NIR SNR 
, 比較 的 複雑 な 演算 処理 を 必要 と し ます . に ハー ド 


NM 生生 
芝 号 処理 は 複数 の 演算 か ら な っ て いま す . 例え ば SSL で は 
数 回 の 公開 か ぎ 暗 号 , 秘密 か ぎ 暗 号 の 演算 を 必要 と し ます . 
これ ら 一 連 の 演算 を すべ て シミ ュ レ ーション する に は 数 十 
意 ク ロッ ク ・ サ イク ル 以 上 が 必要 で す . 


@ FPGA に よる プロ ト タ イ ビ ピング の 効果 

RTL の モデ ル を 高速 に 検証 する た め に , FPGA を 活用 し 
た ハー ド ウェ ア ・ プ ロト タイ ピン グ が 広く 用 いら れ て いま 
す . ター ゲッ ト の 設計 を すべ て FPGA に 実装 で きれ ば , 高 


表 3 処 理 


サイ クル 数 


の 有 Ilgseyr ロ ジョ ul ウー ジ と | 2 層 GAEES た ウー ジョ ンク 


RSA 演算 器 RTL 記 述 ) の 検 | 1024 ピ ビット RsA 32 ビ ッ ト 演算 コア 


400 万 6 一 7 時 間 03 秒 


証 に か か る 時 間 2048 ビ ッ ト RSA 32 ビ ッ ト 演算 コア 


3200 万 2 そ き 目 3 秒 


1024 ビ ッ ト RSA 16 ビ ッ ト 演算 コア 


1600 万 1 日 1.5 秒 


2048 ビ ッ ト RSA 16 ビ ッ ト 演算 コア 


10200 万 1 週間 10 秒 


注 : シミ ュ レ ー タ は Mentor Graphics 社 の ModelSim SE バー ジョ ン 54 で , 2GHz 動作 の Pentium 4 と 1G バ イト の メモ リ を 
搭載 し た ワー クス テー ショ ン ( IBM 社 の Intellistation MPRO) で 動作 させ た . FPGA は 33MHz の シス テム ・ ク ロッ ク で 


動作 する Xilinx 社 の FPGA「 XC2VP20]. 


速 で 正確 な 検証 が 行え を ます. たい へ ん 効率 の 良い 検証 手法 
と いえ ます . 筆者 ら の 経験 で は , ソフ トウ ェ ア ・ シ ミュ レ 
ーション に 比べ て , 3~ 6 けた ほど 速い 速度 で テス ト する 
こと が で きる よう で す . 

RSA 公開 か ぎ 暗 号 演算 は た い へ ん 時 間 が か か る と 述べ ま 
し た . 実際 に は 表 3 に 示し た よう な 検証 実行 時 間 が か か り 
ます . 使用 シミ ュ レ ー タ は , 米国 Mentor Graphics 社 の 
ModelSim SE バー ジョ ン 54 で す . ここ で 用 いた シミ ュ 
境 は , 2GHz 動作 の Pentium 4 と 1G で バイ 
ト の メモ リ を 搭載 し た ワー クス テー ショ ン ( 米国 IBM 社 の 
Intellistation MPRO) と , 33MHz の シス テム ・ ク ロッ ク で 
動作 する Xilinx 社 の FPGA XC2VP20」 で す . 所 要 時 間 を 
大 ざっ ぱに 比較 し て みる と , FPGA エミ ュ レ ーション は ソ 
フト ウェア ・ シ ミュ レー ショ ン の 10 万 倍 高速 だ と いう こと 
が わか り ま す . 


レー ショ ン 環 


@ FPGA に よる プロ ト タ イ ビ ピング の 問題 点 

し か し , ハー ドウ ェ ア ・ プ ロト タイ ピン グ も 万 能 で は あ 
り ま せん . CPU コア を 内 蔵 す る シス テム LSI の 場合 
の LSI の 内 部 は , 通常 , 複数 の 機能 モジ ュー ル を バス で 接 
続 する 構成 に 0 それ ぞ れ の 機能 モジ ュー ル が , 
開発 途中 の 段階 で に 異な っ た 設計 抽象 度 の デー タ で ある こと 
が よく あり ます . 

簡単 な モジ ュー ル な ら す ぐに RTL に 落と せる で し ょ う . 
し か し , 複雑 で 大 き な モ ジュ ー ル は RTL に 落と すま で に 時 
間 が か か り ま す . また , 外部 か ら IP コア と し て 機能 モジ ュ 

ル を 調達 し た 場合 , RTL あ る い は ネッ トリ スト ・ レ ベル 
の デー タ し か 入手 で き な い こと も あり ます . 逆 に , ある 特 
定 の 半導体 製造 プロ セス に し か マッ プ で き な い IP コア で , 
FPGA へ 実装 で きず , 検証 に は 別 の ビヘイビア ・ モ デル を 
使わ な けれ ば な ら な いこ と も あり ます . 

すなわち , LSI の 設計 開発 途中 で は , 表 1 に 示す いろ い 
ろ な レベ ル の 機能 モジ ュー ル が 混在 し た 状況 で 検証 を 行わ 


な けれ ば な ら な いこ と が あり ます . 本 稿 で は この よう に 複 
数 の レベ ル の モジ ュー ル モデ ル ) を 接続 し て いっ し ょ に 検 
証する 方 式 ミッ クス ・ レ ベル 動作 検証 」 と 呼ぶ こと に し 
ます . 

この よう な ミッ クス ・ レ ベル 動作 検証 を ハー ド ウェ ア ・ プ 
ロト タイ ピン グ で 行う 場合 は どう し た ら よ い の で し ょ うか . 
従来 は , RTL で 記述 され た 合成 可能 な モジ ュー ル だ け を 
FPGA へ 実装 し , それ 以外 の C++ や ビヘイビア な どの よ 
り 抽象 度 の 高い レベ ル で 記述 され た モジ ュー ル は ホス ト ・ 
パソ コン で 実行 し , それ ら を PCI バ ス や PCLX バス な ど を 
介し て 仮想 的 な バス を 構築 し 相互 接続 する こと で , 検証 を 
行っ て いま し が 図 4). 

現在 , CPU の 動作 速度 が 3GHz を 超え る ホス ト ・ パ ソコ 
ン も 簡単 に 入手 で きる よう に な り , か な り 高速 な ン ミ ュ レ 
ーション が 可能 と な っ て いま す . また , FPGA も 高速 化 , 
大 規模 化 が 進み , ター ゲッ ト の LSI と 同等 の 速度 リア ル 
タイ ム ) で 動か せる 場合 も あり ます . し か し , パソ コン と 


トラ ン ザ クシ ョ ン / サ イク ル 
精度 レベ ル 設 計 図 


ホス ト ・ パ ソコ ン 上 で 走る 


デー タ 転送 ボ トル ネッ ク 凶 
シミ ュ レ ー タ 較 


品 呈 前 


FPGA 搭載 プロ ト タ イ ピン グ ・ ボード 較 


図 4 従来 の プロ ト タ イ ピン グ ・ ボ ー ド と ホス ト ・ パソ コン を 協調 さ 
せ た ミ ックス ・ レ ベル 検証 

FPGA へ 直接 マッ ピング で きる 合成 可能 な 設計 は プロ ト タイ ビ ピング ・ ボ ー 

へ 実装 する . トラ ン ザ クシ ョ ン ・ 陵 ピス イ ビア ・ PD 
ト ・ パ ソコ ン 上 で シミ ュ レ ー タ を 使っ て 実行 する . ホス ト ・ パ ソコ ン と プロ 
ト タ イ ピン グ ・ ボ ー ド の 間 の デー タ 転送 が ボトル ネッ ク と な っ て , 全体 の 検 
証 速度 の 低下 を 招く こと が 多い 
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/ 全 
0 
設計 の 等 価 性 O 
ソフ トウ ェ ア ・ シ ミュ レー ショ ン 較 リコ ン パ イル 速度 〇 図 
検証 速度 x 較 
\ プ 
0 We 選鉱 波形 観測 性 人 図 
上 設計 の 等 価 性 人 図 
+ 図 リコ ン パ イル 速度 O 較 
ハー ドウ ェ ア ・ ア クセ ラレー タ 図 検証 速度 〇 較 
波形 観測 性 人 図 
上 間 設計 の 等 価 性 O 図 
貼 - ハー ドウ ェ ア ・ プ ロト タイ ピン グ 図 四 リコ ン パ イル 速度 人 図 
代表 的 な 検証 方 法 の 比較 検証 速度 〇 較 
それ ぞ れ の 特徴 を 理解 し て 使い 分 ける こと で 効 
率 の 良い 検証 が 行え る . 
トラ ン ザ クシ ョ ン ・ レ ベル 罰 
NIS に ii 
ハー ド ウェア ・ ラ ッ パ 図 
で (ez28 | 基本 論理 ブロ ッ ク E ッ ク 
図 6 外 付け RAM [ = フロ ッ 28 
FPGA を 用 いた ミッ クス ・ レ ベル 検証 
トラ ン ザ クシ ョ ン ・ レ ベル 設計 を PowerPC で \ Riscwatch / 
シミ ュ レ ーション し , RTL 設 計 は その まま SS860 


FPGA の 基本 論理 ブロ ッ ク へ マッ ピン グ す る . 
2 個 の PowerPC に は それ ぞ れ RISCWatch を 
つなげ て , プロ グラ ム の ロー ド , 開始 , ブレ ー 
ク な どの デバ ッ グ を 行う . 


全体 の 


FPGA の 間 の デー タ 転送 が ボトル ネッ ク と な っ て , 
性 能 が 上 が ら な いこ と が あり まず 図 4). 

実際 に は , ソフ トウ ェ ア ・ シ ミュ レー ショ ン や FPGA プ 
ロト タイ ピン グ を 組み 合わ せ て , いろ いろ な 観点, 状態 か 
ら , な る べく 多く の テス ト を 行い , 検証 の カバ レッ ツジ 網 
雑 率 ) を 上 げ る こと が 重要 で す . 図 5 に 代表 的 な LSI 検 証 
方 法 に つい て まとめ て み ま し た . 


⑯ ミッ クス ・ レ ベル 動作 検証 環境 
CPU コア を 含め て FPGA の 機能 を 最大 限 利 用 する こと 
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バス 較 


シス テム 


で , ミッ クス ・ レ ベル 検証 を 行う 手法 を 紹介 し ます . この 
手法 を ひと 言 で 言う と , RTL で FPAG へ 合成 マッ ピン グ 
可能 な ュー ル は 従来 どおり FPGA の 基本 論理 ブロ ッ ク 
へ 実装 し , FPGA へ 直接 マッ ピン グ で き な い 高い 抽象 度 で 
記述 され た モジ ュー ル は FPGA 内 部 の CPU コア 上 で ソフ 
トウ ェ ア と し て 実行 する , と いう も の で す . この 手法 に よ 
り , C++ や SystemC で 記述 され た , FPGA へ 直接 マッ ピ 
ング で き な い モジ ュー ル も FPGA 上 で 実行 , 検証 する こ 
と が で きま す . また , 異な っ た 抽象 度 の 設 譜 モデ ル ) を 
FPGA 上 で 同時 に 走ら せ て 検証 する こと が で きま す . 


で 
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割り 込み に よる ア 隊 
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図 7 

PLB と 接続 する た め の ハ ー ド ウェ ア ・ ラ 
ッ パ 

トラ ン ザ クシ ョ ン ・ レ ベル 設計 の バス ・ ア クセ 
ス は , PowerPC に よる レジ スタ ・ ラ イト で 実 
装 され る . 


レジ スタ 書き 込み に 区 
よる バス ・ ア クセ ス 了 哨 


に 検証 の た め の FPGA マッ ピン グ 例 を 示し ます . 
RTL で 記述 され た モデ ル は 従来 どおり 合成 され , FPGA の 
区 本 論理 ブロ ッ ク へ 直接 マッピング され ます . 一 方 , トラ 
ン ザ クシ ョ ン ・ レ ベル の モデ ル は C++ また は SystemC で 
記述 され , 二 つ の PowerPC の 上 で ソフ ト ウェ ア と し て 走 
り ま す . トラ ン ザ クシ ョ ン ・ レ ベル で 記述 され た モジ ュー 
ル は , シス テム ・ バ ス を 通し て ほか の モジ ュー ル と 通信 し 
ます . 図 に 示し た 例 で , 6 
リ だ け を 使っ て いま す . 一 方 , PowerPC B は 内 部 メモ リ 

の ほか に 外部 メモ リ を 持た せる こと で , より 大きな モデ ル 
に 対応 で きる よう に な っ て いま す . 

二 つ の PowerPC に は それ ぞ れ り アル タイ ム に デバ ッ グ 
を 行え る イン サー キッ ト ・ デ バッ ガ RISCWatch ? を 
IEEE 1149.{ JTAG) イ ンタ ー フ ェ ー ス 経由 で 接続 し て い 
ます . ハー ド ウェ ア ・ プ ロト タイ ピン グ の か な めで ある 実 
行 速度 を な る べく 損なわ な いよ うに する た め , PowerPC 上 
で OS は 走っ て いま せん . C++ や SystemC で 記述 され た 設 
計 が ホス ト ・ パ ソコ ン 上 で コン パイ ル ・ リ ンク され , 生成 
され た バイ ナリ ( ロー ド ・ モジ ュー ル ) を 直接 RISCWatch 
経由 で PowerPC に 接続 され た メモ リ 上 ヘ ダ ウン ロー ド し , 
OS な し で 実行 し て いま す . 

また , 検証 担当 者 が 容易 に PLB, OPB と 接続 で きる よ 
うに , ハー ドウ ェ ア ・ ラ ッ パ を 用 意 し まし た . ハー ドウ ェ 
ア ・ ラ ッ パ 中 に 埋め 込ま れ た レジ スタ は PowerPC か ら 直 
接 ア クセ ス 可 能 に な っ て お り , それ を 使っ て PLB, OPB 経 
1] で ほか の モジ ュー ル と ハン ド シェ イク を 行っ た り , デー 
タ を 送受 し た り で きる よう に な っ て いま す . バス か ら 来 る 


入 C++ プ ログ ラム ) 較 
ロー カル PLB 


RTL 設 VHDL) 


アク セス は ソフ トウ ェ ア ・ イ ベン ト と し て ポー リン グ ま た 
は 割り 込み で 検出 し て いま す が , 割り 込み は レジ スタ 退避 
な ど に 時 間 が か か る た め , お も に ポー リン グ を 用 いて いま 
ず 図 7. バス 上 の 信号 な ど は RISCWatch か ら 直接 アク 
セス 可能 な レジ スタ の 状態 と し て モニ タ す る こと が で きる 
の で , 効率 の 良い デバ ッ グ が 行え ます . 
トッ プ ダ ウン 設計 例 で は C++ を 用 いま し た が , 筆者 ら は 
SystemC も PowerPC 上 で 動か せる 環境 を 作っ て いま す . 
SystemC に は , 
edatatype% 基本 デー タ ・ タ イプ ) 
etracing 信号 お よび 変数 の トレ ー ス ) 
@ commumnicatiot モジ ュー ル 間 コミ ュ ニ ケー ショ ン ) 
eutilf キュ ー, リン ク ・ リ スト , ハッ シュ な どの デー タ 
構造 ) 
edqt 並列 動作 を 実現 する た め の ス レッ ド 
Threads) 
e kernel SystemC の 最上 位 レ ベル 実装 ) 
の 六 つ の クラ ス ・ モ ジュ ー ル が あり ます . 今 ま で , x86 系 
や SPARC 系 な どの マイ クロ プロ セッ サ に は , これ ら が 実 
装 さ れ て いま す . datatypes, tracing, communication の 
各 ク ラス は 容易 に 移植 で きま す が , qt に は ペー ジ 制 御 や ス 
タッ ク 制 御 が 入っ て お び 5, マイ クロ プロ セッ サ ・ ア ー キ 
テク チャ に 依存 する 部 分 が 大 きい の で , PowerPC 用 に 作 
り 直し て いま す . qt に か か わる ルー チン は 一 部 を アセ ン ブ 
ラ で 記述 する こと で , SystemC の 実行 速度 の 向上 を 図っ て 
いま す . 


実装 , Quick 
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5 まとめ と 後 の 課題 ーー 


ひと 音 前 の LSI 検 証 と いえ ば , VHDL や Verilog HDL で 
ぎ ち ぎ ち に 書か れ た RTL コ ー ド を 長い 時 間 か け て シミ ュ レ 
ーション し て いま し た . 最近 は , C++ や SystemC で 記述 
され た 抽象 度 の 高い 設 識 モデ ル ) を 使う こと で , シス テム 
全体 の シミ ュ レ ーション が 高速 に 実行 で きる よう に な っ て 
き て いま す . 

し か し 。 ハ の ハー ドウ ポア ー プロ トド ト タ イ ビン グ に よる シス テ 
ム ・ テ スト の 大 力 は 健在 で す . ソフ トウ ェ ア ・ シ ミュ レー 
ショ ン が 速く な っ た と は いえ , 依然 と し て テス ト 速度 が け 

\ に 速い と いう こと で す . そし て FPGA の 大 規模 化 ・ 
高速 化 - よ っ て ター ゲッ ト LSI を リア ル タ イ ム で エミ ュ レ ー 
ショ ン す る こと も 可能 に な っ て きた こと も 理由 の 一 つ で す . 

実際 の OS や アプ リケーション を 流し , シス テム 全体 を 
検証 する こと は , ソフ トウ ェ ア ・ シ ミュ レー タ 上 で も 不可 
朋 で は あり ませ ん が 、 ハ ー ド ウェ ア ・ デブ ロト タイ ビング を 
使う こと で より 現実 の 速度 に 近く に な り , 効率 良く テス ト 
や デバ ッ グ を 進め る こと が で きま す . 

従来 は , LSI の 内 部 コン ポー ネン ト が すべ て 合成 可能 な 
RTL で 記述 ぐれ て いな けれ ば , FPGA へ 実装 する ハー ドウ 
エア ・ プ ロト タイ ピン グ を 使え ませ ん で し た . 本 稿 で 解説 
し た よう に , FPGA と CPU コア を 利用 する 手法 を と る こと 
で , 開発 の 早い 段階 , すなわち 仕様 レベ ル や トラ ン ザ クシ 
ョ ン ・ レ ベル の 設計 を 含め た ミッ クス ・ レ ベル の 検証 を ハ 
ー ド ウェ ア ・ プ ロト タイ ピン グ 上 で 行え る よう に な り ま す . 

筆者 ら は , Virtex-II Pro を 使っ て いた た め , 実は 一 つ 問 
題 が あり まし た . CPU コア で ある FowerPC 405 は 浮動 小数 
点 演算 器 を 持っ て いま せん . し た が っ て , C++/System 
C プ ログ ラム が 浮動 小数 点 演算 を 持っ て いる と , ソフ トウ 
ェ エア で エミ ュ レ ーション する 必要 が あり ます . PowerPC 
上 で ソフ ト ウェ ア と し て 実行 する 仕様 レベ ル や トラ ン ザ ク 
ショ ン ・ レ ベル の 設計 の 動作 速度 が 極端 に 遅く な っ て し まい 
まし た 。. 

Xilinx 社 の 最新 の Virtex-4 FX シリーズ で は , PowerPC 
の APU Auxiliary Processor Unit) イン ター フェ ー ス と 呼 
ば れる コ プ ロ セッ サ ・ バ ス が サポ ー ト され , 浮動 小数 点 演 
算 ア クセ ラレー タ を PowerPC の そば に 置け る よう に な り 
まし た . APU は , 通常 の プロ グラ ム ・ コ ー ド に APU 専 用 

の 命令 を 埋め 込み , パイ プラ イン ・ ス ト 一 ル の な い 自 立 型 
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命令 え ヵ サ ポー ト する も の で す . 一 つの 命令 で 最大 四 つ ま で 


の 32 ビッ ト ・ ワ ー ド ・ デー タ 転送 に 対応 し ます . APU イ 
ンタ ー フ ェ ー ス 接続 の 浮動 小数 点 演算 器 を 使う こ 
C++/SystemC プ ログ ラム が 浮動 小数 点 演算 を 使っ て いて 
も , 十分 な 速度 が 得 ら れる も の と 考え て いま す . 
2 


本 稿 が 読者 の 皆様 の 参考 に な れ ば 幸い で す . 
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